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摘要 : 【 目的 ] 利用 学 习 树 中 知识 点 的 属性 和 学 习 访 问 序列 ， 对 知识 点 进行 预测 评分 ， 进 而 进行 用 户 相似 性 聚 


以 实施 协同 过 滤 推 荐 , 改进 传统 在 线 学 习 推 荐 方法 , 


习 访 问 序列 、 学 习 频 率 、 学 习 时 间 进 行 标准 化 处 理 构 建 学 习 树 ; 基于 学 习 树 ， 


提高 推荐 质量 。[ 方法 】 对 用 户 所 学 知识 点 属性 、 


知识 点 学 
对 树 中 知识 点 进行 预测 评分 ; 基于 


预测 评分 和 知识 点 属性 、 知 识 点 学 习 序列 分 别 利用 Pearson 相似 性 和 余弦 相似 性 进行 用 户 相 似 性 计算 , 利用 K 均 


值 聚 类 方法 进行 相似 用 户 聚 类 ,进而 利用 协同 过 滤 推 荐 方法 进行 在 线 学 习 推 荐 。[ 台 


结果 】 通 过 F-measure 指标 进 


行 实验 评价 , 结果 表明 该 方法 与 传统 在 线 学 习 协 同 过 滤 推 荐 方法 相 比 , F-measure 指标 超过 奇异 值 分 解 协同 过 滤 


8.22%， 超 过 平均 分 预测 协同 过 滤 3.75%。[ 局 限 】 仅 基于 某 在 线 学 习 平台 的 52 456 有 
结论 】 解决 了 依赖 用 户 评分 进行 协同 过 滤 推 荐 的 缺陷 ,同时 考 


行 建 模 和 测试 , 未 在 其 他 数据 集 上 进一步 检验 。[ 双 


条 学 生 的 学 习 记录 和 日 志 进 


虑 了 用 户 兴趣 迁移 对 推荐 准确 率 的 影响 ,对 在 线 学 习 冷 启动 与 可 扩展 性 问题 的 解决 具有 较 好 的 指导 意义 。 
关键 词 : 在 线 学 习 推 荐 ”协同 过 滤 ”学 习 树 ”学 习 访 问 序列 
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1 3 引 


近年 来 , 在 线 学 习 已 经 相当 普及 ， 如 何在 海量 的 
学 习 资 源 中 找到 用 户 最 需要 的 学 习 资 料 成 为 在 线 学 习 
的 最 大 困难 ,在线 学 习 推荐 系统 的 出 现 能 够 更 好 地 为 
在 线 学 习 者 准确 定位 其 最 感 兴趣 的 学 习 资 源 。 过 去 10 
年 中 , TEL 社团 对 在 线 学 习 推 荐 进行 了 深入 研究 5 推 


了 中 


目前 应 用 最 为 广泛 也 是 最 为 成 熟 的 在 线 推荐 系统 。 以 
上 两 种 方法 各 有 优 缺 点 ， 基 于 内 容 推荐 只 考虑 用 户 已 
经 学 习 过 的 资源 兴趣 ， 而 无 法 发 现 其 将 来 可 能 的 学 习 
兴趣 ; 协同 过 滤 会 存在 新 注册 学 习 用 户 无 法 推荐 的 冷 
启动 问题 ,以 及 学 习 用 户 不 愿意 留 下 学 习 记 录 和 学 习 
评论 的 稀疏 性 问题 。 混 合 推 荐 方法 致力 于 吸取 前 两 种 
推荐 算法 的 优 缺 点 , 但 如 何 将 两 种 推荐 算法 更 好 地 融 


荐 系统 就 是 其 设计 的 有 助 于 在 线 学 习 的 技术 之 一 , 该 
技术 能 够 为 使 用 者 创造 个 性 化 的 学 习 环 境 。 
目前 主流 的 推荐 算法 主要 有 基于 内 容 的 在 线 学 习 
推荐 、 协 同 过 滤 (Collaborative Filtering, CF) 在 线 学 习 推 
荐 以 及 混合 推荐 算法 等 。 其 中 基于 内 容 的 推荐 主要 为 
用 户 建立 一 个 学 习 兴 趣 模型 ， 将 用 户 兴 趣 模型 与 资源 
属性 进行 匹配 , 将 匹配 度 最 高 的 资源 推荐 给 学 习 用 户 ; 
办 同 过 滤 推 荐 依据 用 户 的 兴趣 ， 对 兴趣 相似 用 户 进行 
聚 类 , 在 具有 相似 兴趣 的 用 户 之 间 进 行 交 又 推荐 , 是 


合 是 混合 推荐 算法 目前 最 大 的 挑战 。 

本 文 在 协同 过 滤 推 荐 算法 的 基础 上 , 通过 对 资源 
的 属性 、 访 问 先后 序列 、 学 习 频 率 、 学 习 时 间 进 行 标 
准 化 处 理 , 为 每 位 用 户 构 建 学 习 树 ,基于 学 习 树 进行 
用 户 相似 性 计算 及 聚 类 ,进而 实现 在 线 学 习 协 同 过 滤 
推荐 。 与 传统 的 基于 用 户 评分 的 协同 过 滤 推 荐 算法 相 
比 ， 本 文 方法 具有 较 好 的 推荐 准确 性 同时 考虑 了 用 
户 学 习 兴 趣 迁 移 对 推荐 准确 性 的 影响 ,并 较 好 地 解决 
了 协同 过 滤 推 荐 系统 所 存在 的 稀 玖 性 和 冷 启动 问题 。 


通讯 作者 : 马莉 ,ORCID: 0000-0002-9726-8286, E-mail: mali8321@tjfsu.cedu.cn。 
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2 研究 背景 


目前 国内 外 学 者 提出 的 在 线 学 习 推荐 方法 主要 有 
基于 内 容 的 在 线 学 习 推荐 、 协 同 过 渡 在 线 学 习 推 荐 以 
及 混合 推荐 算法 等 ， 对 每 个 算法 的 推荐 原理 及 优 缺 点 
进行 分 析 ， 如 下 : 

(1) 基于 内 容 的 在 线 学 习 推荐 

Khribi 等 中 将 用 户 最 近 的 导航 历史 和 学 习 资 源 内 
容 进 行 相似 性 匹配 ,并 在 线 自动 生成 学 习 建 议 。Sharif 
等 B 设 计 一 个 推荐 框架 ， 通 过 将 学 习 资 源 的 关键 字 与 
用 户 的 学 习 兴 趣 标签 进行 匹配 以 实施 推荐 , 并 赋 于 学 
习 资 源 权重 , 将 学 习 资源 根据 重要 性 等 级 进一步 排序 。 

基于 内 容 的 推荐 算法 , 由 于 只 考虑 到 对 学 习 资 源 
与 用 户 兴趣 特征 进行 匹配 , 而 没有 考虑 用 户 之 间 的 相 
似 性 , 这 样 导致 只 会 推荐 用 户 已 经 学 习 过 并 有 兴趣 的 
资源 外 ,而 对 那些 用 户 未 接触 过 的 学 习 资 源 无 法 进行 
推荐 。 为 了 避免 基于 内 容 学 习 推 荐 的 弊端 , 研究 人 员 
又 提出 了 新 的 个 性 化 方案 ,如 协同 过 滤 推 荐 技术 口 。 

(C) 协同 过 滤 推 荐 

绝 大 部 分 在 线 学 习 推荐 系统 利用 协同 过 滤 推 荐 方法 
实施 推荐 , 其 是 目前 应 用 最 为 广泛 的 推荐 方法 ,可 以 被 
分 为 三 类 。 基 于 近邻 的 协同 过 滤 , 通过 用 户 对 学 习 内 容 
评分 数据 发 现 用 户 或 学 习 资 源 之 间 的 相似 性 ， 并 对 用 户 
未 评价 的 学 习 资 源 进 行 预测 推荐 。 基 于 模型 的 协同 过 滤 ， 
利用 用 户 评分 矩阵 , 通过 建立 模型 预测 用 户 的 评分 。 基 
于 人 口 统计 学 的 协同 过 滤 , 利用 人 口 统计 学 特征 进行 用 
户 相似 性 计算 , 并 在 相似 用 户 之 间 进 行 学 习 资源 推荐 外。 

在 线 学 习 环 境 中 , 学 习 资源 媒体 表现 形式 比较 多 
样 化 , 包括 文本 、 超 文本 、 图 像 、 录 像 、 音 频 和 幻灯 
片 ， 导 致 很 难 对 学 习 资 源 的 相似 性 进行 衡量 。 通 常 在 
在 线 学 习 环 境 中, 将 依据 用 户 对 学 习 资 源 的 偏好 实施 
推荐 。 协 同 过 滤 是 目前 比较 流行 的 推荐 技术 , 但 其 有 
两 个 很 明显 的 缺陷 四 ,首要 缺陷 为 稀 跑 性 问题 , 很 多 用 
户 不 愿意 对 学 习 资 源 进行 评价 ,导致 进行 用 户 相 似 性 
计算 的 基础 数据 缺失 ,进而 影响 推荐 精度 ,很 多 研究 
人 员 通 过 数据 挖掘 技术 获取 隐 性 的 有 价值 的 信息 以 对 
稀 玻 数据 进行 补充 。 其 次 是 冷 启动 问题 ,很 多 刚 上 线 
的 学 习 资 源 ,， 因 评价 数据 较 少 ， 即 使 学 习 资 源 很 有 价 
值 也 很 难 被 推荐 到 。Aher 等 中 通过 将 学 习 资 源 进行 分 
类 , 根据 相关 运算 规则 以 缓解 稀疏 性 和 冷 启 动 问题 。 


斑 上 ”~YV:、 人 /人生 甘 日 工 | 
LnmnaxIV 五 人 F 期 语 


总 第 269 期 2016 年 第 4 期 


基于 在 多 元 空间 中 学 习 资 源 的 属性 ，Salehi 等 四 提出 树 
形 模型 为 用 户 进 行 兴 趣 建 模 。 并 在 学 者 树 形 模型 中 采 
用 新 的 相似 度 计算 方法 产生 推荐 。 实 验 结果 表明 他 们 
提出 的 方法 有 效 缓解 了 冷 启 动 和 稀 玻 性 问题 。 

(3) 混合 推荐 方法 

为 了 克服 基于 内 容 推 荐 和 协同 过 滤 推 荐 的 不 足 ， 
绝 大 部 分 的 学 者 尝试 采用 某 种 方法 将 这 两 种 方式 混合 
进行 推荐 。Ge 等 外 提出 一 种 将 基于 内 容 和 协同 过 滤 推 
荐 相 结 合 的 推荐 方法 。 有 些 学 者 尝试 将 基于 内 容 的 推 
荐 结果 再 次 输入 协同 过 滤 推荐 系统 ， 并 采用 协同 过 滤 
推荐 技术 进行 二 次 筛选 ; 也 有 些 学 者 尝试 将 协同 过 滤 
推荐 结果 再 次 经 过 基于 内 容 推荐 筛选 串 。 因 基于 内 容 
推荐 和 协同 过 滤 推 荐 的 推荐 思想 不 同 ， 如 何 将 二 者 有 
效 结合 是 混合 推荐 的 核心 内 容 ,目前 虽然 大 量 学 者 提出 
了 混合 方法 , 但 推荐 精度 和 推荐 效率 值得 进一步 提高 。 

(4) 资源 建 模 与 用 户 建 模 

为 更 好 地 表示 资源 特征 及 用 户 学 习 兴 趣 , 通常 为 
资源 及 用 户 建立 模型 ，Wang 等 (1 提出 通过 资源 所 在 分 
类 的 属性 表示 资源 ; Kim 等 由 进一步 提出 通过 资源 的 
内 容 特征 属性 建立 资源 模型 ， 并 依据 特征 属性 的 重要 
性 进行 排序 ; 还 有 学 者 提出 可 以 依据 资源 中 出 现 的 关 
键 词 数 量 为 资源 建立 模型 ， 关 键 词 出 现 频率 越 高 则 该 
关键 词 表示 该 资源 的 权重 越 大 ; 用 户 建 模 方面 ,最 早 
提出 的 方法 是 可 以 依据 用 户 的 个 人 社会 属性 信息 建立 
用 户 模型 , 这 种 方法 可 能 会 涉及 个 人 隐私 ; Jalali 等 中 
通过 利用 户 访问 过 的 资源 特征 建立 用 户 模 型 ， 可 以 较 
好 地 反映 用 户 学 习 偏好 ,这 种 方法 只 能 发 现 用 户 已 经 
表现 出 的 历史 偏好 ,而 无 法 挖掘 其 未 来 可 能 的 学 习 偏 
好 ; Albadvi 等 5 提出 通过 聚 类 方法 挖掘 与 某 个 用 户 具 
有 相似 偏好 的 用 户 艇 ,以 该 用 户 簇 的 共同 偏好 为 当前 
用 户 建 模 , 该 方法 取得 了 不 错 的 效果 。 


3 研究 框架 


通过 用 户 对 资源 的 访问 记录 、 访 问 时 间 、 访 问 时 
长 、 访 问 频率 等 基本 信息 进行 用 户 建 模 , 用 户 模型 由 
用 户 对 资源 的 预测 评分 、 资 源 访问 序列 、 用 户 偏好 转 
移 组 成 ; 通过 资源 基本 信息 进行 资源 建 模 ,资源 模型 
由 资源 属性 信息 和 属性 权重 组 成 。 进 而 通过 用 户 模型 、 
资源 模型 构建 用 户 学 习 树 , 通过 用 户 学 习 树 进 行 用 户 
相似 性 聚 类 ， 并 进行 资源 推荐 度 计 算 , 进而 实施 推荐 。 
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本 文 研究 框架 如 图 1 所 示 : 
1 1 
1 

| 用 户 建 模 ll 
1 


YY Y 
时 间 兴 趣 度 | [频率 兴趣 度 | 


| | 
| 预测 评分 | | 资源 访问 序列 | 用户 偏好 转移 | 


用 户 预 济 
评分 相似 度 


用 户 访问 


资源 相似 度 


4 推荐 核心 算法 
4.1 资源 建 模 

学 习 资源 可 以 依据 资源 的 类 型 进行 分 类 ,如 : 数 
学 、 物 理 、 计 算 机 科学 等 , 每 一 种 类 型 可 以 进行 进 一 
步 的 细 分 ,如 : 计算 机 科学 又 可 以 分 为 软件 .计算 机 网 
络 等 , 可 以 依据 学 习 资源 所 属 的 类 型 作为 资源 的 属 
性 。 一 种 学 习 资 源 可 以 具有 多 种 属性 ， 如 : 某 个 学 习 资 
源 既 属于 计算 机 科学 , 也 拥有 数学 知识 属性 ， 同 时 还 
具有 作者 、 学 习 类 型 等 属性 , 学 习 资 源 具 有 的 属性 应 
该 是 多 维度 的 。 用 户 可 能 是 因为 对 资源 的 某 个 属性 感 
兴趣 而 进行 学 习 ， 所 以 对 用 户 因 某 个 属性 而 进行 资源 
访问 的 数量 进行 统计 ， 可 以 获得 某 个 属性 对 该 学 习 资 
源 的 权重 贡献 , 权重 越 大 说 明 该 属性 相对 于 该 资源 更 
加 重要 ， 该 资源 因 该 属性 更 加 吸引 用 户 。 由 此 可 以 对 
资源 进行 建 模 如 下 : M=[(Ak,Awi),(Ak;,Aw;)… 
(Ak,Awa)], 其 中 Akm 表 示 第 症 个 属性 的 名 称 , Awa 
表示 第 m 个 属性 对 该 学 习 资源 M 的 权重 贡献 , 本文 设 
定 : Awi > Aw,…> Awnm, 同时 》 Awt =1。 如 某 
个 学 习 资 源 建 模 实例 为 : M=[( 线 性 代数 ，0.35)，( 概 率 
论 , 0.3), (硕士 论文 , 0.2), ( 某 作者 , 0.15)]。 
4.2 用户 建 模 
用 户 模型 反映 用 户 对 于 学 习 资 源 的 偏好 程度 , 通 
常 通过 用 户 对 资源 的 评分 来 反映 。 然而 根据 Nielson[3l 
的 90-9-1 理 论 : 90% 的 用 户 只 是 在 网 络 上 进行 查找 、 阅 
读 、 浏 览 等 ， 而 不 原意 参与 互动 (如 对 资源 进行 评价 ); 
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9% 的 用 户 可 能 偶尔 参与 网 络 互动 , 但 绝 大 部 分 时 间 他 
们 只 是 在 网 络 上 浏览 ; 只 有 1% 的 用 户 在 浏览 的 同时 
愿意 参与 网 络 的 互动 。 因 此 , 很 难得 到 较 完 整 的 用 户 
评分 对 用 户 进行 建 模 ,从 而 反映 用 户 的 兴趣 。 然 而 仍 
然 可 以 通过 提取 用 户 对 资源 的 访问 记录 , 进而 处 理 得 
到 用 户 对 学 习 资 源 的 兴趣 偏好 。 本 文 主要 将 用 户 对 学 
习 资 源 的 访问 时 间 以 及 访问 频率 两 个 指标 进行 处 理 ， 
获取 用 户 的 学 习 偏好 。 

将 用 户 访问 过 的 学 习 资 源 序列 建立 集合 SL = 
{M,M:…Ma}， 其 中 Li 表示 用 户 i, 集合 中 按照 资源 
最 近 访 问 的 时 间 顺 序 排序 , 即 M 是 最 近 访 问 过 的 资 
源 ， 即 M, 是 较 久 之 前 访问 过 的 资源 。 通常 来 说 用 户 对 
某 个 资源 花费 越 多 的 时 间 , 表明 该 资源 相对 于 用 户 越 
重要 , 但 有 时 候 用 户 在 资源 上 花费 的 时 间 多 是 因为 该 
资源 信息 量 大 导致 的 , 用 户 在 资源 上 花费 的 时 间 少 也 
有 可 能 是 资源 的 信息 含量 少 导致 的 , 综合 考虑 这 些 因 
素 , 本 文通 过 公式 (1) 对 资源 的 用 户 访 问 时 间 进 行 处 
理 , 得 到 用 户 对 资源 的 时 间 兴 趣 度 。 
TotalTime(L;, M;) 

size(M) 

| 
size(M,) 


Time(Li, M;)= (1) 


max(q esr, | 


Time(Li, Mj) 表 示 时 间 兴 趣 度 ，TotalTime(Li, Mj) 表 
示 用 户 i 在 资源 j 上 花费 的 学 习 时 间 ，size(Mi) 表示 资 
源 j 的 信息 量 , 通常 是 资源 的 存储 容量 。 

用 户 对 资源 访问 的 次 数 越 多 同样 可 以 表明 该 资源 
对 用 户 有 吸引 力 , 本 文 定义 用 户 对 资源 的 频率 兴趣 度 
如 公式 (2) 所 示 : 


Number_of _visits(Li, Mj) 


Frequency(Li, Mj;)= -一 
Iax(q e SL )(Number_of _visits(L;, Ma )) 


2) 


其 中 ， Frequency(Li,Mj) 表示 频 率 兴 趣 度 ， 
Number_of _visits(Li, Mj) 表示 用 户 i 访问 资源 j 的 次 
数 ，max(q ssr )QNumber_of _visits(L;, Mo)) 表示 访问 
次 数 最 多 的 资源 Ma 的 访问 次 数 。 

综合 考虑 某 个 学 习 资源 的 时 间 兴 趣 度 和 频率 兴 
度 , 利用 公式 (3) 对 其 进行 标准 化 处 理 , 得 到 用 户 对 该 
资源 的 预测 评分 。 

MR(Li, Mj) 尖 沪 次 Nor(Frequency(Li, Mj) x Time(L;, Mj;)) (3) 


其 中 ，MR(L;, Mj) 为 基于 时 间 兴 趣 度 和 频率 兴 


度 得 到 的 用 户 i 对 资源 j 的 预测 评分 NorO 为 标准 化 函 
数 ,将 时 间 兴 趣 度 和 频率 兴趣 度 处 理 为 0-1 之 间 的 数 
值 ， 此 处 预测 评分 为 1-5 分 ， 随 着 用 户 对 资源 访问 的 变 
化 , 该 预测 评分 也 会 随时 更 新 。 

需要 指出 的 是 用 户 对 学 习 资源 的 最 近 访问 时 间 能 
够 反映 出 用 户 学 习 兴 趣 的 动态 转移 ， 在 E-Learning 环 
境 下 , 用户 对 学 习 资 源 的 兴趣 会 动态 变化 , 最 近 刚 访 
问 过 的 学 习 资源 更 能 反映 出 未 来 用 户 的 学 习 偏 好 ， 以 
往 的 用 户 学 习 模 型 对 所 有 的 学 习 资 源 同等 对 待 处 理 ， 
忽略 了 资源 访问 的 时 间 顺 序 对 用 户 偏好 的 影响 。 德 国 
心理 学 家 Ebbinghaust 提出 的 遗忘 函数 曲线 反映 了 人 
类 对 新 事物 的 遗忘 规 律 ， 本 文 基于 遗忘 函数 设计 指数 
函数 ,反映 用 户 对 学 习 资 源 偏好 的 动态 转移 ， 如 公式 
(4) 所 示 : 

h(x(M;)) =exp(-\(x(M;)—D)) 

其 中 ，x(Mj) 表示 用 户 Li 在 其 资源 访问 序列 集合 
si 中 的 次 序 ,可 以 看 出 x(M,) 在 si 中 次 序 越 守 后 ( 信 
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越 大 )，Li 对 Mi 偏好 越 差 ，h(x) 也 会 越 小 。 和 为 调节 
参数 ,反映 用 户 对 资源 偏好 的 变化 率 ,入 越 大 h(x) 变 
化 越 明显 ， 即 遗忘 越 明 显 。 当 入 取 值 为 0.95 时 ，h(x) 
变化 如 图 2 所 示 : 


0 5 10 15 20 25 30 35 40 45 
访问 序列 


图 2 入 取 值 为 0.95 时 ，h(x) 变化 

基于 用 户 对 资源 的 访问 序列 , 用 户 对 资源 的 预测 
评分 , 反映 用 户 偏 好 转移 的 h(x) ,本文 为 用 户 建立 学 
习 树 模型 如 图 3 所 示 : 


和 (信息 技术 ,0.24.4) 


学 习 树 是 一 个 m+1 层 树 状 结构 ，m 为 用 户 访问 过 
的 资源 属性 的 数量 , 树 中 最 底层 为 叶子 节点 ,表示 用 
户 访 问 过 的 一 个 学 习 资源 , 用 一 个 四 元 组 表示 
LTesf = {MID,OR,NH,MR} ,其 中 MID 表示 资源 编 
号 ，OR 表示 用 户 对 该 资源 的 访问 次 序 ，NH 表示 用 


性 
， > 


(C20 BD CGO 0 ‘M25023) I M6.0243) ) 
图 3 户 学 习 树 模型 


对 信息 技术 NH 值 为 0.24, 对 数学 的 NH 为 0.76, 反映 出 
作者 的 兴趣 发 生 了 转移 。 

每 当 用 户 发 生 学 习 资 源 的 访问 , 将 会 依据 访问 时 
长 、 频 率 和 访问 次 序 更 新 学 习 树 ， 如 学 习 树 中 无 该 学 
习 资 源 节 点 , 将 会 添加 该 节点 并 更 新 学 习 树 。 学 习 树 


户 访问 过 的 资源 的 h(x) 的 标准 化 值 ，MR 表示 基于 时 


间 兴 趣 度 和 频率 兴趣 度 的 预测 评分 。 树 中 非 叶 子 节 点 
可 以 定义 为 一 个 三 元 组 LT sr = 区 ANEMR}+， 其 


中 KA 表示 资源 在 该 层 的 一 个 属性 关键 词 ， 第 i 层 节点 
的 NH 值 可 以 表示 为 该 节点 第 i 计 1 层 后 继 节 点 NH 值 的 
和 ,第 i 层 节点 的 MR 值 可 以 表示 为 该 节点 子 树 中 所 有 
叶子 节点 MR 的 平均 值 。 基 于 图 3 所 示 的 学 习 树 ,用 户 


动态 更 新 过 程 如 下 : 

(1) 用 户 访问 了 学 习 树 上 已 存在 的 某 资源 节点 
M1( 叶 子 节点 ), 记录 该 用 户 的 学 习 时 间 和 学 习 频 率 ， 
同时 修改 该 用 户 的 资源 访问 序列 。 利 用 公式 (1) 可 计算 
用 户 对 该 资源 的 时 间 兴 趣 度 , 利用 公式 (2) 可 计算 用 户 
对 该 资源 的 频率 兴趣 度 ， 进 而 利用 公式 (3) 可 得 到 用 户 
对 资源 的 预测 评分 并 更 新 叶子 节点 LTeur ={MID， 
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OR,NH,MR} 中 的 MR ; 利用 资源 访问 序列 的 变化 可 
利用 公式 (4) 重 新 计算 动态 兴趣 度 ， 并 更 新 NH , 利用 
变化 的 资源 访问 序列 更 新 OR 。 因 上 层 非 叶子 节点 
LTioieat = {KA,NH,MR} 中 NH 值 和 MR 值 为 其 下 层 
节点 的 平均 值 ， 叶子 节点 更 新 完成 后 , 学 习 树 中 的 上 
层 非 叶子 节点 随 之 更 新 。 

(2) 若 用 户 访问 了 学 习 树 中 未 存在 的 某 资源 节点 ( 叶 
子 节点 )， 该 叶子 节点 LT = {MID,OR,NH,MR} 中 的 
值 计 算 过 程 同上 , 并 依据 资源 属性 在 学 习 树 中 相应 非 叶 

节点 下 新 增 叶子 节点 , 并 动态 更 新 其 上 层 非 叶子 节点 。 
4.3 ”相似 学 习 用 户 聚 类 

目前 绝 大 多 数 的 协同 过 滤 推 荐 系统 多 基于 用 户 对 
学 习 资 源 的 评分 矩阵 进行 用 户 相似 性 计算 并 实施 推 
荐 。 这 种 方法 有 两 个 缺点 : 

(1) 某 些 用 户 不 愿意 留 下 对 资源 的 评分 或 者 某 些 
新 上 线 资源 还 未 有 用 户 对 其 进行 评价 ,这 都 会 导致 稀 
玻 性 问题 。 

(2) 此 种 方法 过 度 依赖 用 户 对 学 习 资 源 的 评分 ， 
而 忽略 了 资源 的 属性 以 及 用 户 学 习 的 上 下 文 ,也 会 导 
致 推荐 精度 降低 。 

用 户 学 习 树 模型 中 包含 用 户 学 习 资 源 属性 、 用 户 
对 学 习 资 源 的 预测 评分 、 学 习 资 源 的 学 习 次 序 、 用 户 
学 习 偏 好 的 偏 移 。 本 文 提出 基于 用 户 学 习 树 进行 用 户 
相似 聚 类 的 方法 ， 该 方法 能 够 在 不 降低 聚 类 效果 的 同 
时 ， 有 效 避 免 传 统 协 同 过 滤 推 荐 的 弊端 。 

本 文 提出 基于 学 习 树 的 用 户 相 似 性 计算 遵循 以 下 
三 条 原则 : 

(1) 学 习 树 中 学 习 资 源 的 属性 越 相似 ， 则 用 户 的 

习 兴 趣 越 相似 。 

(2) 学 习 树 中 用 户 对 学 习 资 源 的 学 习 顺 序 越 相似 ， 


则 用 户 的 学 习 兴 趣 越 相似 。 
(3) 学 习 树 中 用 户 对 学 习 资 源 的 预测 评分 越 相似 ， 
则 用 户 的 学 习 兴 趣 越 相似 。 


本 文 用 户 相似 性 计算 分 为 两 部 分 ,基于 学 习 树 资 
源 属性 的 相似 性 计算 和 基于 学 习 树 用 户 评分 的 相似 性 
计算 : 

(1) 基于 学 习 树 资源 属性 的 相似 性 计算 
sima (L, ,Lo) 如 下 : 


Zicavd IDMW “NHai: NH 


sima (L, ,Ly,)= 5 5 (5) 
"| Teint so “NH a er ‘NH: 


现代 图 书 情报 技术 


其 中 ，AV(L,,L,) 表示 用 户 a 和 用 户 b 学 习 树 中 
相同 属性 的 交集 集合 ，MW; 表示 学 习 树 中 第 i 层 节点 
属性 的 权重 ，MW; 所 在 节点 层次 越 深 该 值 越 大 ， 本 文 
中 定义 MW; =AW,! 。 NH,; 表示 用 户 a 学 习 树 第 i 层 
节点 的 NH 值 。 

(2) 基于 学 习 树 资源 预测 评分 的 相似 性 计算 
simr (L,,L,) 如 下 : 


> -|(MRa -MRJ).(MRui -MRI 

D5, MR -ED A (MR -MRI 

其 中 , 工 表示 叶子 节点 集合 ，MR 和 MRui 分 别 表 
示 用 户 a 和 用 户 b 对 第 i 个 叶子 节点 的 预测 评分 ， 
MR。 和 MR, 表示 用 户 a 和 用 户 b 的 平均 预测 评分 。 

上 述 两 个 相似 性 计算 公式 只 考虑 了 学 习 资 源 属性 
和 预测 评分 ， 能 够 有 效 去 除 冷 启 动 和 稀 玻 性 问题 。 
用 户 a 和 用 户 b 的 最 终 相 似 性 如 下 : 

LearnerSimn(L ,Lo)=oa:simg(L Lo)+(-o)'simA(L ,Lo (7) 

其 中 ，a 是 simr (LL,,Lp) 和 sima (LL,,L,) 的 权重 ， 
通过 测试 数据 对 a 进行 不 同 取 值 , 发现 w 取 值 0.7 时 
获得 最 好 的 推荐 效果 。 
4.4 协同 过 滤 推 荐 

推荐 过 程 如 下 : 

(1) 随 着 用 户 学 习 进 程 推 进 , 为 用 户 生 成 学 习 树 
并 动态 更 新 , 学 习 树 生成 与 更 新 过 程 见 4.2 节 。 

(2) 基于 用 户 学 习 树 中 资源 属性 和 预测 评分 进行 
用 户 相 似 性 计算 , 用 户 相 似 性 计算 过 程 见 4.3 节 。 

(3) 对 于 某 个 用 户 L; 未 接触 过 的 资源 Mi 是否 值得 
向 该 用 户 推 荐 , 提出 推荐 度 指标 RD(L;i,Mj) ,推荐 度 
指标 计算 如 下 : 


simr (La,Lb) 


(6) 
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L rSim(Li,L ®) 
2 gem, earnerSim(L'i, Lo) 


其 中 ，LMI 为 所 有 对 资源 Mi 进行 访问 的 用 户 集 
合 , q 为 该 集合 中 某 个 学 习 用 户 ，LearnerSim(Li,La) 为 
基于 公式 (7) 得 到 的 用 户 i 和 用 户 q 的 相似 性 ，MR。 为 
用 户 q 对 资源 Mi 基于 公式 (3) 得 到 的 预测 评分 ，MR。 
为 用 户 q 对 所 有 资源 预测 评分 的 平均 值 。 

基于 推荐 度 指 标 ， 可 以 将 推荐 度 最 高 的 Top-n 个 
用 户 的 未 学 习 资源 推荐 给 学 习 用 户 。 


5 实验 评价 


本 文 实验 数据 为 某国 外 在 线 学 习 资 源 的 访问 数 
据 ， 该 数据 集 包 含 完整 的 用 户 访问 记录 和 资源 基本 信 
息 , 截取 2009 年 9 月 -2011 年 2 月 的 访问 数据 。 该 段 
数据 集 包含 2 354 个 用 户 的 52 456 条 用 户 学 习 记 录 ， 
包含 3 254 个 学 习 资 源 ， 数 据 集 包 含 基本 信息 完整 。 其 
中 学 习 资源 包含 : 资源 编号 、 资 源 地 址 、 上 传 时 间 、 
资源 大 小 、 适 宜 学 习 程 度 、 资 源 分 类 、 难 易 程 度 等 基 
本 属性 ， 其 中 资源 编号 .资源 分 类 可 用 于 资源 建 模 , 用 
户 访问 日 志 包 含 : 用 户 编 号 、 访 问 路 径 、 时 间 惟 等 信 
息 ， 其 中 资源 编号 、 资 源 大 小 、 时 间 截 可 用 来 计算 时 
间 兴 趣 度 (公式 (1)) 以 及 用 户 兴趣 转移 (公式 (4)), 用户 
编号 、 资 源 编号 可 用 来 计算 频率 兴趣 度 ( 公 式 (2))。 评 
分 日 志 包 含 : 用 户 编号 、 资 源 编号 、 评 分 等 基本 信息 。 
综合 资源 建 模 、 时 间 兴 趣 度 、 频 率 兴趣 度 、 用 户 评分 
等 信息 可 用 来 用 户 建 模 ( 用 户 学 习 树 )， 基于 用 户 学 习 
树 可 进行 用 户 相 似 性 计算 (公式 (5) 和 公式 (6)), 并 实施 
协同 过 滤 推 荐 。 
S.1 推荐 精度 、 召 回 率 和 F-measure 
推荐 质量 的 好 坏 通常 用 推荐 精度 和 召回 率 两 个 
指标 进行 测量 ， 推 荐 精度 为 推荐 的 项 目 除 以 总 推荐 
项 目 ""。 召回 率 为 推荐 的 相关 项 目 除 以 总 相关 项 目 (应 
当 检 索 到 的 )。 推 荐 精度 和 召回 率 的 计算 公式 如 下 M1 


i |{relevant_items} (\| {recommended _ items} | 
Precision = 一 一 


(9) 


|{recommended _ items}| 


Recall = | {relevant _items} \| {recommended _items} | 


(10) 


| frelevant _ items}| 


由 于 召回 率 与 精度 是 一 对 相互 矛盾 的 指标 ， 本文 
实验 采用 F-measure 指标 进行 检验 ,这 种 方法 混合 了 
精度 和 召回 率 。 


2x Precision x Recall 
F-measure = 一 (11) 
Precision + Recall 


5.2 ”a 取 不 同 值 对 F-measure 的 影响 

通过 实验 可 以 看 到 Qa 取 值 0.7 时 ,获得 了 较 高 的 
F-measure 值 ， 同 时 发 现 取 值 较 小 时 推荐 效果 较 差 。 

用 户 预 测评 分 充分 反映 了 用 户 对 学 习 资 源 访问 时 
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资源 相似 ) 的 相似 性 更 能 反应 出 用 户 学 习 偏好 的 相近 
程度 : 如 图 4 所 示 ，Q 取 值 较 小 时 用 户 属性 相似 性 权 
重 较 大 , F-measure 值 偏 低 ; 当 Q 取 值 变 大 时 用 户 预 测 
评分 权重 变 大 , F-measure 值 随 之 升 高 ; 但 当 Q 超过 0.7 
时 , F-measure 值 又 有 所 降低 。 这 是 因为 用 户 预 测评 分 
相似 性 只 考虑 用 户 对 叶子 节点 (学 习 资 源 ) 的 兴趣 ,而 
未 从 整个 学 习 树 角度 考虑 用 户 对 资源 分 类 的 兴趣 ， 所 
以 取 值 过 大 反而 对 推荐 质量 有 一 定 影响 。 

实验 结果 客观 上 反映 了 基于 用 户 预 测评 分 的 用 户 
相似 性 比 基 于 资源 属性 的 用 户 相 似 性 对 用 户 聚 类 效果 
影响 要 大 。 
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图 4 Qa 不 同 取 值 对 F-measure 的 影响 


5.3 ”本 文 方法 与 其 他 推荐 方法 比较 

目前 消除 稀 玻 性 与 冷 启 动 问题 较 好 的 协同 过 滤 推 
荐 方法 有 Sarwar 等 i 提出 的 经 典 奇异 值 分 解 协同 过 
滤 以 及 平均 分 预测 协同 过 滤 ! "两 种 推荐 系统 。 

奇异 值 分 解 协同 过 滤 推 荐 算法 抽取 原始 用 户 评价 
和 矩阵 最 本 质 的 特征 ， 以 提供 一 个 简化 的 近似 和 矩阵， 这 
种 方法 消除 了 弱 相 关 数 据 ， 从 而 降低 了 需 计 算数 据 的 
维度 。 由 于 推荐 系统 只 对 简化 后 的 矩阵 进行 处 理 ， 只 
考虑 降 维 后 低 维度 数据 , 一定 程度 上 降低 了 计算 复杂 
度 , 是 比较 经 典 的 协同 过 滤 推 荐 算法 之 一 。 

平均 分 预测 协同 过 滤 推 荐 方法 由 Devi 等 "提出 ， 
对 相似 评分 用 户 进行 预 聚 类 ,基于 上 聚 类 簇 内 用 户 的 相 
似 性 对 用 户 未 评分 数据 进行 预测 ， 其 本 质 为 依据 相似 
用 户 已 评价 产品 评价 值 的 相似 性 预测 未 评价 产品 评价 
值 , 该 预测 方法 也 取得 了 较 好 的 效果 , 相 比 奇异 值 分 
解 协同 过 滤 在 推荐 精度 上 有 一 定 提高 , 是 目前 推荐 精 


长 和 访问 频率 的 相似 性 , 因而 相 比 用 户 属性 (用 户 访问 


Dhttp://www.kdnuggets.com/datasets/index.html. 


度 很 高 的 主流 协同 过 滤 推 荐 方法 。 
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将 本 文 方法 与 奇异 值 分 解 协同 过 滤 以 及 平均 分 预 
测 协同 过 滤 进 行 比较 ,其 F-measure 值 如 图 5 所 示 : 


0.94 

0.74 

0.64 

0.54- 

E 0.44 

TT 0.34 
0.24- 
0.14 


asure 值 


1 234567 8 9101112131415 

-多 -奇异 值 分 解 -ee- 平 均 分 预测 外- 本文 方法 

图 5 本 文 方法 与 奇异 值 分 解 、 平 均 分 预测 的 
F-measure 比较 

实验 结果 分 析 如 下 : 

(1) 本 文 方法 的 F-measure 指标 超过 奇异 值 分 解 
协同 过 滤 8.22% 

(2) 本 文 方法 的 F-measure 指标 超过 平均 分 预测 
协同 过 滤 3.75% 

从 实验 结果 来 看 , 本文 提 出 的 推荐 方法 相 比 男 外 
两 种 经 典 的 推荐 方法 获得 了 较 好 的 推荐 质量 , 特别 是 
相对 奇异 值 分 解 协同 过 滤 推 荐 算法 效果 好 很 多 。 奇 异 
值 分 解 推荐 算法 消除 了 弱 相 关 数据 ， 只 抽取 原始 用 户 
评价 矩阵 最 本 质 的 特征 但 其 分 解 的 效果 对 推荐 质量 影 
响 很 大 , 所 以 其 推荐 质量 变化 幅度 较 大 ， 推 荐 效果 不 
稳定 。 平 均 分 预测 协同 过 滤 推 荐 效果 要 稍 好 一 些 , 但 
其 只 能 基于 用 户 已 评价 的 学 习 资源 进行 用 户 聚 类 并 实 
施 推荐 , 若 用 户 未 评价 数据 较 多 ( 稀 玻 性 问题 )， 其 推 
荐 效果 也 会 较 差 。 删 除 部 分 已 评价 数据 ,提高 稀 下 性 
并 进行 实验 , 发 现 本 文 方法 明显 体现 出 优势 ， 同时 可 
以 将 “热点 击 ” 资 源 推荐 给 新 注册 用 户 , 一 定 程度 上 消 
除了 冷 启动 问题 。 实 验 结果 如 图 6 所 示 : 
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图 6 高 稀 获 性 数据 实验 结果 比较 
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6 结 语 


本 文 提出 的 用 户 学 习 树 充分 考虑 了 用 户 学 习 资源 
的 属性 、 用 户 学 习 资 源 的 学 习 次 序 、 用 户 对 学 习 资 源 
的 预测 评分 及 用 户 学 习 兴趣 的 转移 ， 并 基于 此 进行 
户 相似 性 聚 类 ,通过 学 习 用 户 的 相似 性 进行 学 习 资 源 
推荐 度 计 算 ， 该 方法 能 够 有 效 地 避免 协同 过 滤 推荐 算 
法 中 的 冷 启 动 和 稀 琉 性 问题 ,实验 评价 结果 表明 本 文 
提出 的 推荐 方法 在 在 线 学 习 中 具有 较 高 的 推荐 质量 。 
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Collaborative Filtering Recommendation Method Based on User 
Learning Tree 


Ma Li 
(Education Technology & Lab Management Center, Tianjin Foreign Studies University, Tianjin 300204, China) 


Abstract: [Objective] This paper aims to improve traditionlal recommendation method and quality of E-Learning 
enviroment, which used attributes and access orders of resources in learning tree to predict learner’s rate. The 
collaborative filtering recommendation was then carried out through similar learner clustring. [Methods] First, 


9966 


“attributes of resources”‘resource access order” “learning frequency and time” were standardized to construct users’ 
learning tree and then predict resouces rating. Second, learner’s similarity was calculated through Pearson and Cosine 
function respectivly based on predicted ratings. Third, K-means clustering method was used to group similar learners to 
establish collaborative filteing system for online E-learing. [Results] Compared with traditional collaborative filtering 
method, F-measure experimental result of the proposed method was 8.22% higher than the singular value 
decomposition CF and was 3.75% higher than the average score forecast CF. [Limitations] The proposed method was 
only tested on the dataset from one online learing platform with 52,456 students’ learning records and access logs. More 
research is needed to examine the method with other data sets. [Conclusions] The proposed collaborative filtering 
recommendation System does not rely on learners’ ratings and considers the influence of learners” interest changes. It 


could help us deal with the starting and expanding issues. 


Keywords: E-Learning recommendation Collaborative Filtering Learningtree Study access sequence 


ProQuest SIPX 与 OpenStax、OpenSUNY 合作 以 促进 “开放 教育 资源 ”获取 


ProQuest 一 直 致 力 于 支持 开放 教育 资源 (OER)。 通过 此 次 合作 , 使 得 OER 的 内 容 更 容易 被 教 职 人 员 通 过 SIPX 和 Summon 
检索 发 现 。 现 在 , OpenSUNY OER 的 教材 已 被 Summon 索引 , 其 所 有 内 容 都 将 被 索引 , 并且 还 将 与 SIPX 的 课程 相关 联 。 随 
着 这 些 开 放 资 源 更 多 地 在 校园 学 习 管 理 系统 中 呈现 , 教 职 人 员 将 更 容易 选用 这 些 资 源 。 

通过 此 次 合作 , ProQuest、OpenStax 和 OpenSUNY 能 够 为 学 生 提供 更 多 的 选择 ,以 帮助 他 们 减少 获取 课程 材料 资源 方 盏 
的 花费 。“ 这 次 合作 不 仅 能 为 高 校 提 供 更 多 高 质量 、 免 费 的 教材 ， 也 使 得 这 些 内 容 更 容易 被 发 现 .” ProQuest SIPX 的 总 经 理 、 
联合 创始 人 Franny Lee 说 道 , “很 高 兴 能 够 通过 ProQuest 增加 相关 课程 资料 , 我 们 一 直 为 改善 用 户 获 取 高 质量 、 低 花费 的 高 等 
教育 资源 而 不 懈 努 力 。” 

OpenStax 是 一 个 非 鳃 利 的 组 织 机 构 , 致力 于 帮助 学 生 获 取 优 质 学 习 资 源 。“OpenStax 致力 于 改善 人 们 获取 高 等 教育 资源 
的 现状 。 此 次 我 们 与 ProQuest SIPX 的 合作 能 使 得 我 们 的 内 容 资料 被 更 多 机 构 的 读者 获取 到 。”OpenStax 的 创始 人 Richard 
Baraniuk 表示 。 

(编译 自 : http://www.proquest.com/about/news/2016/SIPX-Teams-with-OpenStax-and-OpenSUNY-to-Boost-Access.html) 
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